SeClaw: Síntesis de Tareas de Seguridad para Evaluar Agentes Autónomos
Descubre SeClaw, un framework que sintetiza tareas de seguridad para evaluar agentes LLM autónomos. Evaluación reproducible y basada en trayectorias.
Descubre SeClaw, un framework que sintetiza tareas de seguridad para evaluar agentes LLM autónomos. Evaluación reproducible y basada en trayectorias.
BenchEvolver transforma benchmarks saturados en problemas de código más difíciles, mejorando evaluación de IA con evolución centrada en soluciones.